<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   语义分析的一些方法(上篇)  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://dataunion.org/10748.html",
                  host: "http://dataunion.org",
                  prePath: "http://dataunion.org",
                  scheme: "http",
                  pathBase: "http://dataunion.org/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466457183: Accept with keywords: (title(0.0):方法,社区,语义,数盟, topn(0.433333333333):词性,语言,数盟,深度学习,利用,神经网络,长江大桥,结果,特征,模型,关键词,参考文献,文档,文章,数据,向量,预测,公式,语义,用户,大桥,重要性,分词,方法,单词,人工智能,广告,核心,南京市,文本).-->
 </head>
 <body onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    语义分析的一些方法(上篇)
   </h1>
  </div>
  <div class="container" id="xmain">
   ﻿﻿
   <title>
    语义分析的一些方法(上篇) | 数盟社区
   </title>
   <!-- All in One SEO Pack 2.2.7.6.2 by Michael Torbert of Semper Fi Web Design[32,60] -->
   <!-- /all in one seo pack -->
   <!--
<div align="center">
<a href="http://strata.oreilly.com.cn/hadoop-big-data-cn?cmp=mp-data-confreg-home-stcn16_dataunion_pc" target="_blank"><img src="http://dataunion.org/wp-content/uploads/2016/05/stratabj.jpg"/ ></a>
</div>
-->
   <header id="header-web">
    <div class="header-main">
     <hgroup class="logo">
      <h1>
       <a href="http://dataunion.org/" rel="home" title="数盟社区">
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/logo.png"/>
       </a>
      </h1>
     </hgroup>
     <!--logo-->
     <nav class="header-nav">
      <ul class="menu" id="menu-%e4%b8%bb%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-71" id="menu-item-71">
        <a href="http://dataunion.org/category/events" title="events">
         活动
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22457" id="menu-item-22457">
          <a href="http://dataunion.org/2016timeline">
           2016档期
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22459" id="menu-item-22459">
          <a href="http://dataunion.org/category/parterc">
           合作会议
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category current-post-ancestor menu-item-has-children menu-item-20869" id="menu-item-20869">
        <a href="http://dataunion.org/category/tech" title="articles">
         文章
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20867" id="menu-item-20867">
          <a href="http://dataunion.org/category/tech/base" title="base">
           基础架构
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category current-post-ancestor current-menu-parent current-post-parent menu-item-3302" id="menu-item-3302">
          <a href="http://dataunion.org/category/tech/ai" title="ai">
           人工智能
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3303" id="menu-item-3303">
          <a href="http://dataunion.org/category/tech/analysis" title="analysis">
           数据分析
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21920" id="menu-item-21920">
          <a href="http://dataunion.org/category/tech/dm">
           数据挖掘
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3314" id="menu-item-3314">
          <a href="http://dataunion.org/category/tech/viz" title="viz">
           可视化
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3305" id="menu-item-3305">
          <a href="http://dataunion.org/category/tech/devl" title="devl">
           编程语言
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20876" id="menu-item-20876">
        <a href="http://dataunion.org/category/industry">
         行业
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-16328" id="menu-item-16328">
          <a href="http://dataunion.org/category/industry/case" title="case">
           行业应用
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-2112" id="menu-item-2112">
          <a href="http://dataunion.org/category/industry/demo" title="demo">
           Demo展示
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21562" id="menu-item-21562">
          <a href="http://dataunion.org/category/industry/news">
           行业资讯
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-311" id="menu-item-311">
        <a href="http://dataunion.org/category/sources" title="sources">
         资源
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20870" id="menu-item-20870">
        <a href="http://dataunion.org/category/books" title="book">
         图书
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21363" id="menu-item-21363">
        <a href="http://dataunion.org/category/training">
         课程
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-21853" id="menu-item-21853">
        <a href="http://dataunion.org/category/jobs">
         职位
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22050" id="menu-item-22050">
          <a href="http://dataunion.org/category/career">
           职业规划
          </a>
         </li>
        </ul>
       </li>
      </ul>
     </nav>
     <!--header-nav-->
    </div>
   </header>
   <!--header-web-->
   <div id="main">
    <div id="soutab">
     <form action="http://dataunion.org/" class="search" method="get">
     </form>
    </div>
    <div id="container">
     <nav id="mbx">
      当前位置：
      <a href="http://dataunion.org">
       首页
      </a>
      &gt;
      <a href="http://dataunion.org/category/tech">
       文章
      </a>
      &gt;
      <a href="http://dataunion.org/category/tech/ai">
       人工智能
      </a>
      &gt;  正文
     </nav>
     <!--mbx-->
     <article class="content">
      <header align="centre" class="contenttitle">
       <div class="mscc">
        <h1 class="mscctitle">
         <a href="http://dataunion.org/10748.html">
          语义分析的一些方法(上篇)
         </a>
        </h1>
        <address class="msccaddress ">
         <em>
          11,326 次阅读 -
         </em>
         <a href="http://dataunion.org/category/tech/ai" rel="category tag">
          人工智能
         </a>
        </address>
       </div>
      </header>
      <div class="content-text">
       <p>
        作者：
        <a href="http://www.flickering.cn/">
         火光摇曳
        </a>
       </p>
       <blockquote>
        <p>
         <a href="http://dataunion.org/?p=10748">
          语义分析的一些方法（上篇）
         </a>
        </p>
        <p>
         <a href="http://dataunion.org/?p=10760">
          语义分析的一些方法（中篇）
         </a>
        </p>
        <p>
         <a href="http://dataunion.org/?p=10781">
          语义分析的一些方法（下篇）
         </a>
        </p>
       </blockquote>
       <p>
        语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。wikipedia上的解释：In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。
       </p>
       <p>
        工作这几年，陆陆续续实践过一些项目，有搜索广告，社交广告，微博广告，品牌广告，内容广告等。要使我们广告平台效益最大化，首先需要理解用户，Context(将展示广告的上下文)和广告，才能将最合适的广告展示给用户。而这其中，就离不开对用户，对上下文，对广告的语义分析，由此催生了一些子项目，例如文本语义分析，图片语义理解，语义索引，短串语义关联，用户广告语义匹配等。
       </p>
       <p>
        接下来我将写一写我所认识的语义分析的一些方法，虽说我们在做的时候，效果导向居多，方法理论理解也许并不深入，不过权当个人知识点总结，有任何不当之处请指正，谢谢。
       </p>
       <p>
        本文主要由以下四部分组成：文本基本处理，文本语义分析，图片语义分析，语义分析小结。先讲述文本处理的基本方法，这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法，值得注意的是，虽说分为两节，但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用，并展望一下未来的语义分析方法。
       </p>
       <h3 id="1文本基本处理">
        1 文本基本处理
       </h3>
       <p>
        在讲文本语义分析之前，我们先说下文本基本处理，因为它构成了语义分析的基础。而文本处理有很多方面，考虑到本文主题，这里只介绍中文分词以及Term Weighting。
       </p>
       <h4 id="1.1中文分词">
        1.1 中文分词
       </h4>
       <p>
        拿到一段文本后，通常情况下，首先要做分词。分词的方法一般有如下几种：
       </p>
       <ul>
        <li>
         基于字符串匹配的分词方法。此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分(即最短路径)；总之就是各种不同的启发规则。
        </li>
        <li>
         全切分方法。它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一个示例，对于文本串“南京市长江大桥”，首先进行词条检索(一般用Trie存储)，找到匹配的所有词条（南京，市，长江，大桥，南京市，长江大桥，市长，江大桥，江大，桥），以词网格(word lattices)形式表示，接着做路径搜索，基于统计语言模型(例如n-gram)[18]找到最优路径，最后可能还需要命名实体识别。下图中“南京市 长江 大桥”的语言模型得分，即P(南京市，长江，大桥)最高，则为最优切分。
         <br/>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/rnnlm1.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/rnnlm1.png"/>
          </a>
         </figure>
         <p>
          图1. “南京市长江大桥”语言模型得分
         </p>
        </li>
        <li>
         由字构词的分词方法。可以理解为字的分类问题，也就是自然语言处理中的sequence labeling问题，通常做法里利用HMM，MAXENT，MEMM，CRF等预测文本串每个字的tag[62]，譬如B，E，I，S，这四个tag分别表示：beginning, inside, ending, single，也就是一个词的开始，中间，结束，以及单个字的词。 例如“南京市长江大桥”的标注结果可能为：“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。由于CRF既可以像最大熵模型一样加各种领域feature，又避免了HMM的齐次马尔科夫假设，所以基于CRF的分词目前是效果最好的，具体请参考文献[61,62,63]。除了HMM，CRF等模型，分词也可以基于深度学习方法来做，如文献[9][10]所介绍，也取得了state-of-the-art的结果。
         <br/>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/word_segmentation1.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/word_segmentation1.png"/>
          </a>
         </figure>
         <p>
          图2. 基于深度学习的中文分词
         </p>
         <p>
          上图是一个基于深度学习的分词示例图。我们从上往下看，首先对每一个字进行Lookup Table，映射到一个固定长度的特征向量(这里可以利用词向量，boundary entropy，accessor variety等)；接着经过一个标准的神经网络，分别是linear，sigmoid，linear层，对于每个字，预测该字属于B,E,I,S的概率；最后输出是一个矩阵，矩阵的行是B,E,I,S 4个tag，利用viterbi算法就可以完成标注推断，从而得到分词结果。
         </p>
        </li>
       </ul>
       <p>
        一个文本串除了分词，还需要做词性标注，命名实体识别，新词发现等。通常有两种方案，一种是pipeline approaches，就是先分词，再做词性标注；另一种是joint approaches，就是把这些任务用一个模型来完成。有兴趣可以参考文献[9][62]等。
       </p>
       <p>
        一般而言，方法一和方法二在工业界用得比较多，方法三因为采用复杂的模型，虽准确率相对高，但耗时较大。
       </p>
       <h4 id="1.2语言模型">
        1.2 语言模型
       </h4>
       <p>
        前面在讲“全切分分词”方法时，提到了语言模型，并且通过语言模型，还可以引出词向量，所以这里把语言模型简单阐述一下。
       </p>
       <p>
        语言模型是用来计算一个句子产生概率的概率模型，即P(w_1,w_2,w_3…w_m)，m表示词的总个数。根据贝叶斯公式：P(w_1,w_2,w_3 … w_m) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2) … P(w_m|w_1,w_2 … w_{m-1})。
       </p>
       <p>
        最简单的语言模型是N-Gram，它利用马尔科夫假设，认为句子中每个单词只与其前n–1个单词有关，即假设产生w_m这个词的条件概率只依赖于前n–1个词，则有P(w_m|w_1,w_2…w_{m-1}) = P(w_m|w_{m-n+1},w_{m-n+2} … w_{m-1})。其中n越大，模型可区别性越强，n越小，模型可靠性越高。
       </p>
       <p>
        N-Gram语言模型简单有效，但是它只考虑了词的位置关系，没有考虑词之间的相似度，词语法和词语义，并且还存在数据稀疏的问题，所以后来，又逐渐提出更多的语言模型，例如Class-based ngram model，topic-based ngram model，cache-based ngram model，skipping ngram model，指数语言模型（最大熵模型，条件随机域模型）等。若想了解更多请参考文章[18]。
       </p>
       <p>
        最近，随着深度学习的兴起，神经网络语言模型也变得火热[4]。用神经网络训练语言模型的经典之作，要数Bengio等人发表的《A Neural Probabilistic Language Model》[3]，它也是基于N-Gram的，首先将每个单词w_{m-n+1},w_{m-n+2} … w_{m-1}映射到词向量空间，再把各个单词的词向量组合成一个更大的向量作为神经网络输入，输出是P(w_m)。本文将此模型简称为ffnnlm（Feed-forward Neural Net Language Model）。ffnnlm解决了传统n-gram的两个缺陷：(1)词语之间的相似性可以通过词向量来体现；(2)自带平滑功能。文献[3]不仅提出神经网络语言模型，还顺带引出了词向量，关于词向量，后文将再细述。
       </p>
       <figure>
        <a href="http://dataunion.org/wp-content/uploads/2015/02/ffnnlm1.png">
         <img src="http://dataunion.org/wp-content/uploads/2015/02/ffnnlm1.png"/>
        </a>
       </figure>
       <p>
        图3. 基于神经网络的语言模型
       </p>
       <p>
        从最新文献看，目前state-of-the-art语言模型应该是基于循环神经网络(recurrent neural network)的语言模型，简称rnnlm[5][6]。循环神经网络相比于传统前馈神经网络，其特点是：可以存在有向环，将上一次的输出作为本次的输入。而rnnlm和ffnnlm的最大区别是：ffnnmm要求输入的上下文是固定长度的，也就是说n-gram中的 n 要求是个固定值，而rnnlm不限制上下文的长度，可以真正充分地利用所有上文信息来预测下一个词，本次预测的中间隐层信息(例如下图中的context信息)可以在下一次预测里循环使用。
       </p>
       <figure>
        <a href="http://dataunion.org/wp-content/uploads/2015/02/simple_rnn.png">
         <img src="http://dataunion.org/wp-content/uploads/2015/02/simple_rnn.png"/>
        </a>
       </figure>
       <p>
        图4. 基于simple RNN(time-delay neural network)的语言模型
       </p>
       <p>
        如上图所示，这是一个最简单的rnnlm，神经网络分为三层，第一层是输入层，第二层是隐藏层(也叫context层)，第三层输出层。 假设当前是t时刻，则分三步来预测P(w_m)：
       </p>
       <ul>
        <li>
         单词w_{m-1}映射到词向量，记作input(t)
        </li>
        <li>
         连接上一次训练的隐藏层context(t–1)，经过sigmoid function，生成当前t时刻的context(t)
        </li>
        <li>
         利用softmax function，预测P(w_m)
        </li>
       </ul>
       <p>
        参考文献[7]中列出了一个rnnlm的library，其代码紧凑。利用它训练中文语言模型将很简单，上面“南京市 长江 大桥”就是rnnlm的预测结果。
       </p>
       <p>
        基于RNN的language model利用BPTT(BackPropagation through time)算法比较难于训练，原因就是深度神经网络里比较普遍的vanishing gradient问题[55]（在RNN里，梯度计算随时间成指数倍增长或衰减，称之为Exponential Error Decay）。所以后来又提出基于LSTM(Long short term memory)的language model，LSTM也是一种RNN网络，关于LSTM的详细介绍请参考文献[54,49,52]。LSTM通过网络结构的修改，从而避免vanishing gradient问题。
       </p>
       <figure>
        <a href="http://dataunion.org/wp-content/uploads/2015/02/lstm_unit.png">
         <img src="http://dataunion.org/wp-content/uploads/2015/02/lstm_unit.png"/>
        </a>
       </figure>
       <p>
        图5. LSTM memory cell
       </p>
       <p>
        如上图所示，是一个LSTM unit。如果是传统的神经网络unit，output activation bi = activation_function(ai)，但LSTM unit的计算相对就复杂些了，它保存了该神经元上一次计算的结果，通过input gate，output gate，forget gate来计算输出，具体过程请参考文献[53，54]。
       </p>
       <h4 id="1.3termweighting">
        1.3 Term Weighting
       </h4>
       <h5 id="term重要性">
        Term重要性
       </h5>
       <p>
        对文本分词后，接下来需要对分词后的每个term计算一个权重，重要的term应该给与更高的权重。举例来说，“什么产品对减肥帮助最大？”的term weighting结果可能是: “什么 0.1，产品 0.5，对 0.1，减肥 0.8，帮助 0.3，最大 0.2”。Term weighting在文本检索，文本相关性，核心词提取等任务中都有重要作用。
       </p>
       <ul>
        <li>
         Term weighting的打分公式一般由三部分组成：local，global和normalization [1,2]。即
         <br/>
         TermWeight=L_{i,j} G_i N_j。L_{i,j}是term i在document j中的local weight，G_i是term i的global weight，N_j是document j的归一化因子。
         <br/>
         常见的local，global，normalization weight公式[2]有：
         <p>
         </p>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/local_weight.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/local_weight.png"/>
          </a>
         </figure>
         <p>
          图6. Local weight formulas
         </p>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/global_weight.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/global_weight.png"/>
          </a>
         </figure>
         <p>
          图7. Global weight formulas
         </p>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/normlization_weight.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/normlization_weight.png"/>
          </a>
         </figure>
         <p>
          图8. Normalization factors
         </p>
         <p>
          Tf-Idf是一种最常见的term weighting方法。在上面的公式体系里，Tf-Idf的local weight是FREQ，glocal weight是IDFB，normalization是None。tf是词频，表示这个词出现的次数。df是文档频率，表示这个词在多少个文档中出现。idf则是逆文档频率，idf=log(TD/df)，TD表示总文档数。Tf-Idf在很多场合都很有效，但缺点也比较明显，以“词频”度量重要性，不够全面，譬如在搜索广告的关键词匹配时就不够用。
         </p>
         <p>
          除了TF-IDF外，还有很多其他term weighting方法，例如Okapi，MI，LTU，ATC，TF-ICF[59]等。通过local，global，normalization各种公式的组合，可以生成不同的term weighting计算方法。不过上面这些方法都是无监督计算方法，有一定程度的通用性，但在一些特定场景里显得不够灵活，不够准确，所以可以基于有监督机器学习方法来拟合term weighting结果。
         </p>
         <figure>
          <a href="http://dataunion.org/wp-content/uploads/2015/02/okapi.png">
           <img src="http://dataunion.org/wp-content/uploads/2015/02/okapi.png"/>
          </a>
         </figure>
         <p>
          图9. Okapi计算公式
         </p>
        </li>
        <li>
         利用有监督机器学习方法来预测weight。这里类似于机器学习的分类任务，对于文本串的每个term，预测一个[0,1]的得分，得分越大则term重要性越高。既然是有监督学习，那么就需要训练数据。如果采用人工标注的话，极大耗费人力，所以可以采用训练数据自提取的方法，利用程序从搜索日志里自动挖掘。从海量日志数据里提取隐含的用户对于term重要性的标注，得到的训练数据将综合亿级用户的“标注结果”，覆盖面更广，且来自于真实搜索数据，训练结果与标注的目标集分布接近，训练数据更精确。下面列举三种方法(除此外，还有更多可以利用的方法)：
         <ul>
          <li>
           从搜索session数据里提取训练数据，用户在一个检索会话中的检索核心意图是不变的，提取出核心意图所对应的term，其重要性就高。
          </li>
          <li>
           从历史短串关系资源库里提取训练数据，短串扩展关系中，一个term出现的次数越多，则越重要。
          </li>
          <li>
           从搜索广告点击日志里提取训练数据，query与bidword共有term的点击率越高，它在query中的重要程度就越高。
          </li>
         </ul>
         <p>
          通过上面的方法，可以提取到大量质量不错的训练数据（数十亿级别的数据，这其中可能有部分样本不准确，但在如此大规模数据情况下，绝大部分样本都是准确的）。
         </p>
         <p>
          有了训练数据，接下来提取特征，基于逻辑回归模型来预测文本串中每个term的重要性。所提取的特征包括：
         </p>
         <ul>
          <li>
           term的自解释特征，例如term专名类型，term词性，term idf，位置特征，term的长度等；
          </li>
          <li>
           term与文本串的交叉特征，例如term与文本串中其他term的字面交叉特征，term转移到文本串中其他term的转移概率特征，term的文本分类、topic与文本串的文本分类、topic的交叉特征等。
          </li>
         </ul>
        </li>
       </ul>
       <h5 id="核心词、关键词提取">
        核心词、关键词提取
       </h5>
       <ul>
        <li>
         短文本串的核心词提取。对短文本串分词后，利用上面介绍的term weighting方法，获取term weight后，取一定的阈值，就可以提取出短文本串的核心词。
        </li>
        <li>
         长文本串(譬如web page)的关键词提取。这里简单介绍几种方法。想了解更多，请参考文献[69]。
         <ul>
          <li>
           采用基于规则的方法。考虑到位置特征，网页特征等。
          </li>
          <li>
           基于广告主购买的bidword和高频query建立多模式匹配树，在长文本串中进行全字匹配找出候选关键词，再结合关键词weight，以及某些规则找出优质的关键词。
          </li>
          <li>
           类似于有监督的term weighting方法，也可以训练关键词weighting的模型。
          </li>
          <li>
           基于文档主题结构的关键词抽取，具体可以参考文献[71]。
          </li>
         </ul>
        </li>
       </ul>
       <p>
        参考文献
       </p>
       <ol>
        <li>
         <a href="http://comminfo.rutgers.edu/~muresan/IR/Docs/Articles/ipmSalton1988.pdf">
          Term-weighting approaches in automatic text retrieval，Gerard Salton et.
         </a>
        </li>
        <li>
         <a href="http://www.sandia.gov/~tgkolda/pubs/pubfiles/ornl-tm-13756.pdf">
          New term weighting formulas for the vector space method in information retrieval
         </a>
        </li>
        <li>
         <a href="http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf">
          A neural probabilistic language model 2003
         </a>
        </li>
        <li>
         <a href="http://licstar.net/archives/328">
          Deep Learning in NLP-词向量和语言模型
         </a>
        </li>
        <li>
         <a href="http://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf">
          Recurrent neural network based language models
         </a>
        </li>
        <li>
         Statistical Language Models based on Neural Networks，mikolov博士论文
        </li>
        <li>
         <a href="http://www.fit.vutbr.cz/~imikolov/rnnlm/">
          Rnnlm library
         </a>
        </li>
        <li>
         <a href="http://brown.cl.uni-heidelberg.de/~sourjiko/NER_Literatur/survey.pdf">
          A survey of named entity recognition and classification
         </a>
        </li>
        <li>
         <a href="http://www.aclweb.org/anthology/D13-1061">
          Deep learning for Chinese word segmentation and POS tagging
         </a>
        </li>
        <li>
         <a href="http://aclweb.org/anthology/P14-1028">
          Max-margin tensor neural network for chinese word segmentation
         </a>
        </li>
        <li>
         <a href="http://www.cogsci.ucsd.edu/~ajyu/Teaching/Cogs202_sp12/Readings/hinton86.pdf">
          Learning distributed representations of concepts
         </a>
        </li>
        <li>
         <a href="http://www.cs.colorado.edu/~jbg/docs/2014_book_chapter_care_and_feeding.pdf">
          Care and Feeding of Topic Models: Problems, Diagnostics, and Improvements
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1412.1576">
          LightLda
         </a>
        </li>
        <li>
         <a href="https://code.google.com/p/word2vec/">
          word2vec
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1301.3781v3.pdf">
          Efficient Estimation of Word Representations in Vector Space
         </a>
        </li>
        <li>
         <a href="http://techblog.youdao.com/?p=915">
          Deep Learning实战之word2vec
         </a>
        </li>
        <li>
         <a href="http://suanfazu.com/t/word2vec-zhong-de-shu-xue-yuan-li-xiang-jie-duo-tu-wifixia-yue-du/178">
          word2vec中的数学原理详解
         </a>
         <a href="http://blog.csdn.net/itplus/article/details/37969519">
          出处2
         </a>
        </li>
        <li>
         <a href="http://52opencourse.com/111/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E5%9B%9B%E8%AF%BE-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%EF%BC%88language-modeling%EF%BC%89">
          斯坦福课程-语言模型
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1412.4729">
          Translating Videos to Natural Language Using Deep Recurrent Neural Networks
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1405.4053v2.pdf">
          Distributed Representations of Sentences and Documents
         </a>
        </li>
        <li>
         <a href="http://blog.csdn.net/zouxy09/article/details/8781543">
          Convolutional Neural Networks卷积神经网络
         </a>
        </li>
        <li>
         <a href="http://research.microsoft.com/en-us/news/features/spp-102914.aspx">
          A New, Deep-Learning Take on Image Recognition
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1406.4729v1.pdf">
          Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
         </a>
        </li>
        <li>
         <a href="http://www.toptal.com/machine-learning/an-introduction-to-deep-learning-from-perceptrons-to-deep-networks">
          A Deep Learning Tutorial: From Perceptrons to Deep Networks
         </a>
        </li>
        <li>
         <a href="http://cs.nyu.edu/~fergus/presentations/nips2013_final.pdf">
          Deep Learning for Computer Vision
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1312.5650.pdf">
          Zero-shot leanring by convex combination of semantic embeddings
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1409.3215v3.pdf">
          Sequence to sequence learning with neural network
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1309.4168.pdf">
          Exploting similarities among language for machine translation
         </a>
        </li>
        <li>
         Grammar as Foreign Language Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, Geoffrey Hinton, arXiv 2014
        </li>
        <li>
         <a href="http://ceur-ws.org/Vol-1204/papers/paper_4.pdf">
          Deep Semantic Embedding
         </a>
        </li>
        <li>
         张家俊. DNN Applications in NLP
        </li>
        <li>
         <a href="http://cl.naist.jp/~kevinduh/notes/cwmt14tutorial.pdf">
          Deep learning for natural language processing and machine translation
         </a>
        </li>
        <li>
         <p>
          Distributed Representations for Semantic Matching
         </p>
        </li>
        <li>
         distributed_representation_nlp
        </li>
        <li>
         Deep Visual-Semantic Alignments for Generating Image Descriptions
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1408.5882v2.pdf">
          Convolutional Neural Networks for Sentence Classification
         </a>
        </li>
        <li>
         <a href="http://ml.nec-labs.com/senna">
          Senna
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1409.0575v1.pdf">
          ImageNet Large Scale Visual Recognition Challenge
         </a>
        </li>
        <li>
         Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks
        </li>
        <li>
         <a href="http://turing.iimas.unam.mx/~elena/CompVis/Lecun98.pdf">
          Gradient-Based Learning Applied to Document Recognition
         </a>
        </li>
        <li>
         Effetive use of word order for text categorization with convolutional neural network，Rie Johnson
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1406.1078.pdf">
          Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1411.4555v1.pdf">
          Show and Tell: A Neural Image Caption Generator
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/ftp/arxiv/papers/1501/1501.02876.pdf">
          Deep Image: Scaling up Image Recognition
         </a>
        </li>
        <li>
         Large-Scale High-Precision Topic Modeling on Twitter
        </li>
        <li>
         A. Krizhevsky. One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997, 2014
        </li>
        <li>
         <a href="http://yyue.blogspot.com/2015/01/a-brief-overview-of-deep-learning.html">
          A Brief Overview of Deep Learning
         </a>
        </li>
        <li>
         Going deeper with convolutions. Christian Szegedy. Google Inc.
         <a href="http://www.gageet.com/2014/09203.php">
          阅读笔记
         </a>
        </li>
        <li>
         Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling
        </li>
        <li>
         <a href="http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf">
          Semi-Supervised Learning Tutorial
         </a>
        </li>
        <li>
         http://www.zhihu.com/question/24904450
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1402.1128.pdf">
          LONG SHORT-TERM MEMORY BASED RECURRENT NEURAL NETWORK ARCHITECTURES FOR LARGE VOCABULARY SPEECH RECOGNITION
         </a>
        </li>
        <li>
         <a href="http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.248.4448&amp;rep=rep1&amp;type=pdf">
          LSTM Neural Networks for Language Modeling
         </a>
        </li>
        <li>
         <a href="http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf">
          LONG SHORT-TERM MEMORY
         </a>
        </li>
        <li>
         Bengio, Y., Simard, P., Frasconi, P., “Learning long-term dependencies with gradient descent is difficult” IEEE Transactions on Neural Networks 5 (1994), pp. 157–166
        </li>
        <li>
         <a href="http://www.sravi.org/pubs/fastlda-kdd2014.pdf">
          AliasLDA
         </a>
        </li>
        <li>
         <a href="http://users/ling/Desktop/%E7%9F%A5%E8%AF%86%E6%80%BB%E7%BB%93/www.umiacs.umd.edu/~resnik/pubs/LAMP-TR-153.pdf">
          Gibbs sampling for the uninitiated
         </a>
        </li>
        <li>
         <a href="http://www.eecs.tufts.edu/~noto/pub/kdd08/elkan.kdd08.poster.pdf">
          Learning classifiers from only positive and unlabeled data
         </a>
        </li>
        <li>
         <a href="http://cda.ornl.gov/publications/ICMLA06.pdf">
          TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams
         </a>
        </li>
        <li>
         <a href="http://www.flickering.cn/%E6%A6%82%E7%8E%87%E7%BB%9F%E8%AE%A1/2014/06/%E3%80%90lda%E6%95%B0%E5%AD%A6%E5%85%AB%E5%8D%A6%E3%80%91%E7%A5%9E%E5%A5%87%E7%9A%84gamma%E5%87%BD%E6%95%B0/">
          LDA数学八卦
         </a>
        </li>
        <li>
         <a href="http://www.aclweb.org/anthology/W06-0132">
          Chinese Word Segmentation and Named Entity Recognition Based on Conditional Random Fields Models
         </a>
        </li>
        <li>
         <a href="http://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&amp;context=cis_papers">
          Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
         </a>
        </li>
        <li>
         <a href="http://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1091&amp;context=cs_faculty_pubs">
          Chinese Segmentation and New Word Detection using Conditional Random Fields
         </a>
        </li>
        <li>
         <a href="http://www.arbylon.net/publications/text-est.pdf">
          Gregor Heinrich. Parameter estimation for text analysis
         </a>
        </li>
        <li>
         <a href="http://km.oa.com/group/14352/articles/show/213192">
          Peacock：大规模主题模型及其在腾讯业务中的应用
         </a>
        </li>
        <li>
         L. Yao, D. Mimno, and A. McCallum. Efficient methods for topic model inference on streaming document collections. In KDD, 2009.
        </li>
        <li>
         <a href="http://www.jmlr.org/papers/volume10/newman09a/newman09a.pdf">
          David Newman. Distributed Algorithms for Topic Models
         </a>
        </li>
        <li>
         <a href="http://www.flickering.cn/nlp/2014/07/lda%E5%B7%A5%E7%A8%8B%E5%AE%9E%E8%B7%B5%E4%B9%8B%E7%AE%97%E6%B3%95%E7%AF%87-1%E7%AE%97%E6%B3%95%E5%AE%9E%E7%8E%B0%E6%AD%A3%E7%A1%AE%E6%80%A7%E9%AA%8C%E8%AF%81/">
          Xuemin. LDA工程实践之算法篇
         </a>
        </li>
        <li>
         <a href="http://www.cs.unm.edu/~pdevineni/papers/Lott.pdf">
          Brian Lott. Survey of Keyword Extraction Techniques
         </a>
        </li>
        <li>
         Yi Wang, Xuemin Zhao, Zhenlong Sun, Hao Yan, Lifeng Wang, Zhihui Jin, Liubin Wang, Yang Gao, Ching Law, and Jia Zeng. Peacock: Learning Long-Tail Topic Features for Industrial Applications. TIST’2015.
        </li>
        <li>
         <a href="http://nlp.csai.tsinghua.edu.cn/~lzy/publications/phd_thesis.pdf">
          刘知远. 基于文档主题结构的关键词抽取方法研究
         </a>
        </li>
        <li>
         <a href="http://www.cs.toronto.edu/~hinton/science.pdf">
          Hinton. Reducing the Dimensionality of Data with Neural Networks
         </a>
        </li>
        <li>
         <a href="http://dl.acm.org/citation.cfm?id=2396863">
          Samaneh Moghaddam. On the design of LDA models for aspect-based opinion mining
         </a>
         ；
        </li>
        <li>
         The FLDA model for aspect-based opinion mining: addressing the cold start problem
        </li>
        <li>
         <a href="http://www.cs.berkeley.edu/~rbg/papers/r-cnn-cvpr.pdf">
          Ross Girshick et. Rich feature hierarchies for accurate object detection and semantic segmentation
         </a>
        </li>
        <li>
         J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.
        </li>
        <li>
         <a href="http://arxiv.org/abs/1410.1090">
          Baidu/UCLA: Explain Images with Multimodal Recurrent Neural Networks
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1411.2539">
          Toronto: Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1411.4389">
          Berkeley: Long-term Recurrent Convolutional Networks for Visual Recognition and Description
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1411.5654">
          Xinlei Chen et. Learning a Recurrent Visual Representation for Image Caption Generation
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/pdf/1411.4952v2">
          Hao Fang et. From Captions to Visual Concepts and Back
         </a>
        </li>
        <li>
         <a href="http://www.cs.toronto.edu/~nitish/uai13.pdf">
          Modeling Documents with a Deep Boltzmann Machine
         </a>
        </li>
        <li>
         <a href="http://nikhilbuduma.com/2015/01/11/a-deep-dive-into-recurrent-neural-networks/">
          A Deep Dive into Recurrent Neural Nets
         </a>
        </li>
        <li>
         <a href="http://arxiv.org/abs/1502.01710?utm_source=dlvr.it&amp;utm_medium=tumblr">
          Xiang zhang et. Text Understanding from Scratch
         </a>
        </li>
       </ol>
       <p>
        文章出处：
        <a href="http://www.flickering.cn/ads/2015/02/%e8%af%ad%e4%b9%89%e5%88%86%e6%9e%90%e7%9a%84%e4%b8%80%e4%ba%9b%e6%96%b9%e6%b3%95%e4%b8%80/" rel="bookmark" title="本文固定链接 http://www.flickering.cn/ads/2015/02/%e8%af%ad%e4%b9%89%e5%88%86%e6%9e%90%e7%9a%84%e4%b8%80%e4%ba%9b%e6%96%b9%e6%b3%95%e4%b8%80/">
         语义分析的一些方法(一)
        </a>
       </p>
      </div>
      <div>
       <strong>
        注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。
       </strong>
      </div>
      <!--content_text-->
      <div class="fenxian">
       <!-- JiaThis Button BEGIN -->
       <div class="jiathis_style_32x32">
        <p class="jiathis_button_weixin">
        </p>
        <p class="jiathis_button_tsina">
        </p>
        <p class="jiathis_button_qzone">
        </p>
        <p class="jiathis_button_cqq">
        </p>
        <p class="jiathis_button_tumblr">
        </p>
        <a class="jiathis jiathis_txt jtico jtico_jiathis" href="http://www.jiathis.com/share" target="_blank">
        </a>
        <p class="jiathis_counter_style">
        </p>
       </div>
       <!-- JiaThis Button END -->
      </div>
     </article>
     <!--content-->
     <!--相关文章-->
     <div class="xianguan">
      <div class="xianguantitle">
       相关文章！
      </div>
      <ul class="pic">
       <li>
        <a href="http://dataunion.org/10781.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/02/t01ae0abe2dd11b206d-300x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/10781.html" rel="bookmark" title="语义分析的一些方法(下篇)">
         语义分析的一些方法(下篇)
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/10760.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/02/t010c83b7c0914eb046-300x224.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/10760.html" rel="bookmark" title="语义分析的一些方法(中篇)">
         语义分析的一些方法(中篇)
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24663.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/06/095356be8cb4z9ke9389kd-204x200.jpeg"/>
        </a>
        <a class="link" href="http://dataunion.org/24663.html" rel="bookmark" title="人工智能界最强大脑畅谈AI未来之路">
         人工智能界最强大脑畅谈AI未来之路
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24652.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/02/20150522141422337-265x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24652.html" rel="bookmark" title="重磅 | MIT与谷歌专家合著论文：机器学习和神经科学的相互启发与融合（附论文）">
         重磅 | MIT与谷歌专家合著论文：机器学习和神经科学的相互启发与融合（附论文）
        </a>
       </li>
      </ul>
     </div>
     <!--相关文章-->
     <div class="comment" id="comments">
      <!-- You can start editing here. -->
      <!-- If comments are open, but there are no comments. -->
      <div class="title">
       期待你一针见血的评论，Come on！
      </div>
      <div id="respond">
       <p>
        不用想啦，马上
        <a href="http://dataunion.org/wp-login.php?redirect_to=http%3A%2F%2Fdataunion.org%2F10748.html">
         "登录"
        </a>
        发表自已的想法.
       </p>
      </div>
     </div>
     <!-- .nav-single -->
    </div>
    <!--Container End-->
    <aside id="sitebar">
     <div class="sitebar_list2">
      <div class="wptag">
       <span class="tagtitle">
        热门标签+
       </span>
       <div class="tagg">
        <ul class="menu" id="menu-%e5%8f%8b%e6%83%85%e9%93%be%e6%8e%a5">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1605" id="menu-item-1605">
          <a href="http://taidizh.com/">
           泰迪智慧
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20884" id="menu-item-20884">
          <a href="http://www.transwarp.cn/">
           星环科技
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-3538" id="menu-item-3538">
          <a href="http://datall.org/">
           珈和遥感
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20888" id="menu-item-20888">
          <a href="http://www.chinahadoop.cn/">
           小象学院
          </a>
         </li>
        </ul>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <div class="textwidget">
       <div align="center">
        <a href="http://study.163.com/course/courseMain.htm?courseId=991022" target="_blank">
         <img src="http://dataunion.org/wp-content/uploads/2016/03/dv.jpg"/>
        </a>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       文章分类
      </h4>
      <div class="tagcloud">
       <a class="tag-link-44" href="http://dataunion.org/category/industry/demo" style="font-size: 10.204724409449pt;" title="4个话题">
        Demo展示
       </a>
       <a class="tag-link-31" href="http://dataunion.org/category/experts" style="font-size: 15.826771653543pt;" title="52个话题">
        专家团队
       </a>
       <a class="tag-link-870" href="http://dataunion.org/category/tech/ai" style="font-size: 19.795275590551pt;" title="273个话题">
        人工智能
       </a>
       <a class="tag-link-488" href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f" style="font-size: 8pt;" title="1个话题">
        加入数盟
       </a>
       <a class="tag-link-869" href="http://dataunion.org/category/tech/viz" style="font-size: 17.204724409449pt;" title="93个话题">
        可视化
       </a>
       <a class="tag-link-30" href="http://dataunion.org/category/partners" style="font-size: 10.645669291339pt;" title="5个话题">
        合作伙伴
       </a>
       <a class="tag-link-889" href="http://dataunion.org/category/parterc" style="font-size: 11.582677165354pt;" title="8个话题">
        合作会议
       </a>
       <a class="tag-link-104" href="http://dataunion.org/category/books" style="font-size: 12.96062992126pt;" title="15个话题">
        图书
       </a>
       <a class="tag-link-220" href="http://dataunion.org/category/tech/base" style="font-size: 19.850393700787pt;" title="281个话题">
        基础架构
       </a>
       <a class="tag-link-219" href="http://dataunion.org/category/tech/analysis" style="font-size: 19.409448818898pt;" title="232个话题">
        数据分析
       </a>
       <a class="tag-link-887" href="http://dataunion.org/category/tech/dm" style="font-size: 13.291338582677pt;" title="17个话题">
        数据挖掘
       </a>
       <a class="tag-link-34" href="http://dataunion.org/category/tech" style="font-size: 20.732283464567pt;" title="404个话题">
        文章
       </a>
       <a class="tag-link-1" href="http://dataunion.org/category/uncategorized" style="font-size: 22pt;" title="693个话题">
        未分类
       </a>
       <a class="tag-link-4" href="http://dataunion.org/category/events" style="font-size: 14.503937007874pt;" title="29个话题">
        活动
       </a>
       <a class="tag-link-890" href="http://dataunion.org/category/tech/%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0" style="font-size: 10.204724409449pt;" title="4个话题">
        深度学习
       </a>
       <a class="tag-link-221" href="http://dataunion.org/category/tech/devl" style="font-size: 18.968503937008pt;" title="193个话题">
        编程语言
       </a>
       <a class="tag-link-888" href="http://dataunion.org/category/career" style="font-size: 15.661417322835pt;" title="48个话题">
        职业规划
       </a>
       <a class="tag-link-5" href="http://dataunion.org/category/jobs" style="font-size: 14.11811023622pt;" title="25个话题">
        职位
       </a>
       <a class="tag-link-871" href="http://dataunion.org/category/industry" style="font-size: 15.716535433071pt;" title="49个话题">
        行业
       </a>
       <a class="tag-link-613" href="http://dataunion.org/category/industry/case" style="font-size: 16.984251968504pt;" title="84个话题">
        行业应用
       </a>
       <a class="tag-link-885" href="http://dataunion.org/category/industry/news" style="font-size: 17.425196850394pt;" title="102个话题">
        行业资讯
       </a>
       <a class="tag-link-10" href="http://dataunion.org/category/training" style="font-size: 14.228346456693pt;" title="26个话题">
        课程
       </a>
       <a class="tag-link-16" href="http://dataunion.org/category/sources" style="font-size: 15.661417322835pt;" title="48个话题">
        资源
       </a>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       功能
      </h4>
      <ul>
       <li>
        <a href="http://dataunion.org/wp-login.php?action=register">
         注册
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/wp-login.php">
         登录
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/feed">
         文章
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/comments/feed">
         评论
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
         WordPress.org
        </a>
       </li>
      </ul>
     </div>
    </aside>
    <div class="clear">
    </div>
   </div>
   <!--main-->
   ﻿
   <footer id="dibu">
    <div class="about">
     <div class="right">
      <ul class="menu" id="menu-%e5%ba%95%e9%83%a8%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-18024" id="menu-item-18024">
        <a href="http://dataunion.org/category/partners">
         合作伙伴
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20881" id="menu-item-20881">
        <a href="http://dataunion.org/contribute">
         文章投稿
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20872" id="menu-item-20872">
        <a href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f">
         加入数盟
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22441" id="menu-item-22441">
        <a href="http://dataunion.org/f-links">
         友情链接
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20874" id="menu-item-20874">
        <a href="http://dataunion.org/aboutus">
         关于数盟
        </a>
       </li>
      </ul>
      <p class="banquan">
       数盟社区        ，
        做最棒的数据科学社区
      </p>
     </div>
     <div class="left">
      <ul class="bottomlist">
       <li>
        <a href="http://weibo.com/DataScientistUnion  " target="_blank" 　title="">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weibo.png"/>
        </a>
       </li>
       <li>
        <a class="cd-popup-trigger" href="http://dataunion.org/10748.html#0">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weixin.png"/>
        </a>
       </li>
      </ul>
      <div class="cd-popup">
       <div class="cd-popup-container">
        <h1>
         扫描二维码,加微信公众号
        </h1>
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/2014-12-06-1515289049.png"/>
        <a class="cd-popup-close" href="http://dataunion.org/10748.html">
        </a>
       </div>
       <!-- cd-popup-container -->
      </div>
      <!-- cd-popup -->
     </div>
    </div>
    <!--about-->
    <div class="bottom">
     <a href="http://dataunion.org/">
      数盟社区
     </a>
     <a href="http://www.miitbeian.gov.cn/" rel="external nofollow" target="_blank">
      京ICP备14026740号
     </a>
     联系我们：
     <a href="mailto:contact@dataunion.org" target="_blank">
      contact@dataunion.org
     </a>
     <div class="tongji">
     </div>
     <!--bottom-->
     <div class="scroll" id="scroll" style="display:none;">
      ︿
     </div>
    </div>
   </footer>
   <!--dibu-->
  </div>
 </body>
</html>